ハルシネーション対策まとめ 論文
https://scrapbox.io/files/65afda0cdee2120023158af0.png
論文情報
タイトル:A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
発行日:2024年1月
著者:S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das
所属:Islamic University of Technology
論文を読んで感じたこと
むずすぎる
https://scrapbox.io/files/65afd9fd5ca23600260a60aa.png
この表のprompt engineeringのところを重点的に理解する
概要
大規模言語モデル(LLM)が人間のようなテキストを書く能力を高めるにつれて、事実でない内容を生成する「幻覚」の傾向をどう克服するかが重要な課題です。幻覚の問題は、これらの強力なLLMを実際の生産システムに安全に導入する上で最大の障害であると言われています(Jain、2023)。LLMを実用的な環境で広く採用するためには、幻覚を解決し軽減することが重要です。伝統的なAIシステムが限定されたタスクに集中するのに対し、LLMは訓練中に膨大なオンラインテキストデータにさらされています。これにより、印象的な言語の流暢さを示すことができますが、訓練データのバイアスから情報を外挿したり、曖昧なプロンプトを誤解したり、入力と表面的に一致するように情報を変更したりする能力も持っています。医療記録の要約、顧客サポートの会話、財務分析レポート、誤った法的アドバイスの提供など、言語生成機能に依存する敏感なアプリケーションではこれが非常に問題となります。小さなエラーが害を引き起こす可能性があり、自己学習の進歩にもかかわらず、LLMが実際の理解を欠いていることが露呈されます。この論文では、LLMの幻覚を軽減するために開発された32以上の技術の包括的な調査を行います。これらの中で特に注目すべきは、検索拡張生成(RAG)(RAG論文)、知識検索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)、CoVe (Chain-of-Verification)(CoVe論文)です。さらに、データセットの利用、共通タスク、フィードバックメカニズム、リトリバーのタイプなど、さまざまなパラメータに基づいてこれらの方法を分類する詳細な分類を紹介します。この分類により、LLMの幻覚問題に特化して設計された多様なアプローチを区別するのに役立ちます。さらに、これらの技術に固有の課題と制限を分析し、LLM内の幻覚と関連現象に対処するための将来の研究のための堅固な基盤を提供します。 1 導入
大規模言語モデル(LLM)における幻覚は、多岐にわたる主題に関する事実上の誤った情報の生成を伴います。LLMの広範なドメインカバレッジを考慮すると、その応用範囲は学術研究、プログラミング、創造的な執筆、技術的なアドバイス、スキル獲得の促進など、数多くの学術的・専門的な分野に及びます。その結果、LLMは私たちの日常生活において不可欠な要素として登場し、正確で信頼性の高い情報を提供する重要な役割を果たしています。それにもかかわらず、実際のテーマに関する誤った詳細や作り話を生成する傾向、すなわち幻覚は、この分野の研究者にとって重要な課題です。これにより、GPT-4などの進んだモデルが、不正確または全く根拠のない参照を生成するシナリオが生じます。この問題は、訓練段階でのパターン生成技術とリアルタイムのインターネット更新の欠如により生じ、情報出力における不一致に寄与します(Ray, 2023)。 現代の計算言語学では、幻覚の軽減が重要な焦点です。研究者たちは、フィードバックメカニズム、外部情報検索、言語モデル生成の初期改善など、さまざまな戦略を提案して、この課題に取り組んでいます。この論文は、これら多様な技術を包括的な分類に統合し整理することで重要な意味を持ちます。この論文がLLMの幻覚に対する3つの貢献は以下の通りです:
1. 幻覚軽減技術を分類するための体系的な分類法の導入、ビジョン言語モデル(VLM)を含む。
2. これらの軽減技術を特徴づける本質的な特徴の合成により、この領域内でのより構造化された将来の研究への指針を提供。
3. これらの技術に固有の限界と課題についての議論と、潜在的な解決策と将来の研究の方向性の提案。
https://scrapbox.io/files/65afd9fd5ca23600260a60aa.png
2. 幻覚の軽減
LLMが重要なタスクで重要な役割を果たしていることを考えると、幻覚の検出は大きな懸念事項となっています。Qiu et al.(2023b)は、要約における幻覚を特定する方法としてmFACTを導入し、その適用性を英語以外の言語にまで拡大しました。さらに、Zhang et al.(2023b)は、文脈情報に基づく幻覚検出の枠組みを提案しました。幻覚の原因を理解する別の視点は、Mündler et al.(2023)によって提示されており、自己矛盾が寄与要因として探求されています。
2.1 プロンプトエンジニアリング
プロンプトエンジニアリングとは、AIテキスト生成モデルから最良の出力を得るために様々な指示を試すプロセスです(White et al.、2023)。幻覚軽減の観点からは、このプロセスは特定の文脈と期待される結果を提供できます(Feldman et al.、2023)。プロンプトエンジニアリング軽減技術は以下のように概説できます:
2.1.1 検索拡張生成
検索拡張生成(RAG)は、潜在的に古い訓練データやモデルの内部知識に頼るのではなく、外部の権威ある知識ベースを活用することで、LLMの応答を強化します。このアプローチは、LLM出力の正確性と現行性という主要な課題に対処します(Kang et al.、2023)。RAGは、関連性があり、現行性があり、検証可能な応答を生成することで、LLMにおける幻覚の問題を効果的に軽減し、ユーザーの信頼を強化し、開発者にさまざまなアプリケーションでLLMの忠実度と有用性を向上させる経済的な方法を提供します。このシステムに続く軽減技術はさらに以下のように分類されます: 2.1.1.1 生成前
以下の技術では、AIテキストの生成前に情報検索が行われます:
LLM-Augmenter: Peng et al.(2023)は、プラグアンドプレイ(PnP)(Li et al.、2023b)モジュールのセットでブラックボックスLLMを拡張するシステムを提案しています。このシステムは、外部知識に基づいてLLMが応答を生成するようにし、ユーティリティ関数によって生成されたフィードバックを使用してLLMのプロンプトを反復的に改訂します。この論文では、PnPモジュールを使用して外部知識と自動フィードバックでLLMを改善するLLM-Augmenterを紹介しています。これらのモジュールは訓練を必要とせず、すぐに使用できます。ユーザーの問い合わせがあると、フレームワークは最初に外部知識から証拠を取得し、証拠チェーンを形成するための推論を行います。次に、LLM-Augmenterは、LLMが外部知識(証拠)に基づいた候補応答を生成するための統合された証拠を含むプロンプトを使用して固定されたLLM(GPT-3.5)に問い合わせます。LLM-Augmenterはその後、候補の応答を検証します。例えば、証拠を幻覚しているかどうかを確認します。そうであれば、LLM-Augmenterはフィードバックメッセージを生成します。このメッセージは、GPT-3.5に再度問い合わせるためのプロンプトを改訂するために使用されます。このプロセスは、候補の応答が検証に合格し、ユーザーに送信されるまで繰り返されます。 FreshPrompt: Vu et al.(2023)は、ほとんどのLLMが静的な性質を持ち、進化する世界に適応する能力を欠いていることを指摘しています。著者らは、現在の世界知識を必要とする質問や虚偽の前提を持つ質問でLLMを評価する動的なQAベンチマークであるFreshQAを紹介しました。二つのモードの評価を通じて、正確さと幻覚が測定され、特に急速に変化する知識シナリオにおいて改善が必要であることが明らかにされました。これらの課題に対処するために、著者らは検索エンジンを活用してプロンプトに関連性があり、最新の情報を取り入れるFew-Shotプロンプト方法であるFreshPromptを提示しました。FreshPromptは、競合する方法や商業システムを上回り、さらなる分析では、正確さに対する取得された証拠の数と順序の影響が強調されています。この研究は、進化する知識に適応するLLMの能力の詳細な評価を行い、FreshQAデータセットと、動的な質問応答を強化する効果的なプロンプト方法であるFreshPromptを紹介しています。 2.1.1.2 生成中
以下の技術は、モデルが各文を生成する際に情報検索を行う文ごとのレベルでの知識検索を示しています。
知識検索:Varshney et al.(2023)は、幻覚が発生した際にそれを能動的に検出し減少させる方法を提案しています。文の作成に進む前に、まずこのアプローチはモデルからのロジット出力値を使用して潜在的な幻覚を特定し、それらが正確であることを検証し、見つかった幻覚を軽減します。最も重要な認識は、生成プロセス中に幻覚を処理することが重要であるということです。これは、モデルが以前に出力で幻覚を経験している場合に幻覚を含む文を生成する可能性を高めるからです。この研究は、GPT-3などのモデルが生成するロジット出力値を使用して幻覚を特定する方法を調査しています。しかし、API呼び出しのみで利用可能ないくつかのモデルはロジット出力値を提供しないかもしれないと認識し、この情報は幻覚検出アプローチに必須の前提条件ではなく、補足的な情報源であると強調しています。この方法は、修正段階のサポートとして取得された知識を使用し、幻覚情報を排除または置換することで、生成された文中の幻覚を減少させるようモデルに指示します。
Decompose and Query framework(D&Q):Cao et al.(2023)の研究では、質問応答におけるLLMが直面する課題、特に幻覚や多段階関係の難しさに取り組んでいます。彼らは、信頼できる情報に推論を制限しながら外部知識の利用をガイドするD&Qフレームワークを提案しています。実験結果は、D&Qの効果を示し、ChitChatQAでGPT-3.5に対して競争力のあるパフォーマンスを示し、HotPotQA(質問のみ)で注目すべき59.6%のF値/F1スコアを達成しています。このフレームワークは、ツールの呼び出しを伴わない教師ありファインチューニングフェーズを含み、予測フェーズでは、モデルが信頼できる質問回答ベースをクエリするために外部ツールを使用し、必要に応じて新しい検索を開始することができます。この発見は、質問応答タスクにおけるLLMの堅牢性とパフォーマンスを強化するD&Qの可能性を強調しています。 Real-time Verification and Rectification(EVER):LLMは、特に推論タスクにおいて、不正確または幻覚したコンテンツを生成するという課題にしばしば直面します。非検索ベースおよび検索拡張生成アプローチで広く見られるこの問題に対応して、Kang et al.(2023)はEVERフレームワークを導入しました。既存の方法が事後的に幻覚を修正するのに対し、EVERは生成プロセス中にリアルタイムで段階的な戦略を採用し、発生すると同時に幻覚を検出し修正します。この三段階のプロセスは生成、検証、修正を含み、固有および外来の幻覚を効果的に特定し修正します。EVERは検索ベースおよび非検索ベースのベースラインを上回り、短形式QA、伝記生成、多段階推論など多様なタスクにおいて、信頼でき、事実に基づいたテキストを生成する能力が著しく向上しています。このフレームワークの効果は経験的に検証されており、幻覚の「スノーボール」問題を軽減する能力を示し、LLMの精度と信頼性を高めるための貴重な貢献となっています。
2.1.1.3 生成後
以下の技術は、出力全体を生成した後に情報検索システムを使用します:
Retrofit Attribution using Research and Revision(RARR):Gao et al.(2023)によると、LLMの領域では様々なタスクにわたって顕著な進歩が達成されていますが、適切なサポートや正確性なしにコンテンツを生成するなどの問題が残っています。LLM出力の信頼性を決定する際の課題は、帰属性の欠如によるものであり、これがRARRの導入を促しました。このモデル非依存のシステムは、導入で紹介されたように、任意のテキスト生成モデルの帰属プロセスを自動化します。ファクトチェックのワークフローに触発されたRARRは、取得した証拠と整合させるために、リサーチとポスト編集を行いながらも、元の特性を保持します。導入で概説された貢献には、帰属のための編集タスクの形式化、新しい指標の導入、既存の改訂モデルのベンチマーク、およびリサーチ・アンド・リバイズモデルの提案が含まれます。結論は、RARRが帰属を強化しながら本質的なテキストの特性を保持する能力を強調し、LLM出力の信頼性を向上させる実用的な解決策を提供しています。
High Entropy Word Spotting and Replacement:高エントロピー語の検出の技術的実現可能性は明らかかもしれませんが、現代の多くのLLMがクローズドソースであり、サブスクリプションベースのAPIがアクセスを制限しているため、大きな課題が生じます。Rawte et al.(2023)による提案された解決策は、オープンソースのLLMを使用して高エントロピー語を特定し、次に幻覚脆弱性指数の低いLLMを使用してそれらを置換することです。この結果は、albert-large-v2(Lan et al.、2020)がGPT-3によって生成されたコンテンツ内の高エントロピー語を検出する際の優れたパフォーマンスを強調しています。逆に、distilroberta-base(Sanh et al.、2019)は高エントロピー語の置換において優れたパフォーマンスを示し、幻覚の減少に寄与しています。このアプローチの重要な側面は、連続する高エントロピー語を統合された単位として扱い、これらの語を置換する前に集合的にマスキングすることで、特にGenerated GolemやAcronym Ambiguityに関連する幻覚への対応が特に効果的です。
2.1.1.4 エンドツーエンドRAG
Lewis et al.(2021)の論文で提案されたRAGのエンドツーエンドプロセスは、事前訓練されたシーケンス・ツー・シーケンス(seq2seq)トランスフォーマーと、Dense Passage Retriever(DPR)を通じてアクセスされるWikipediaの密ベクトルインデックスを統合することを含みます。この革新的な組み合わせにより、モデルは入力クエリとDPRによって提供される潜在ドキュメントの両方に基づいて出力生成を行うことができます。このプロセスでは、DPRはニューラルリトリバーとして機能し、入力に基づいて関連するドキュメントを提供します。これらのドキュメントは、特にBARTによってseq2seqモデルによって最終出力を生成するために使用されます。モデルはトップK近似を使用してこれらの潜在ドキュメントをマージナライズし、これは出力ごと(1つのドキュメントがすべてのトークンに責任を持つと仮定)またはトークンごとに行うことができます(異なるドキュメントが出力の異なる部分に影響を与えることを可能にします)。
重要なことに、このRAGセットアップのジェネレータとリトリバーはエンドツーエンドで訓練され、共同で学習し、お互いのパフォーマンスを向上させることが保証されています。この方法論は、特定のタスク用に非パラメトリックメモリを持つアーキテクチャを一から構築する必要がある以前のアプローチとは対照的です。代わりに、RAGは広範な知識で事前にロードされた事前訓練されたコンポーネントを使用し、追加の訓練なしで広範囲の情報にアクセスし、統合することができます。このエンドツーエンドのアプローチは、知識集約型タスクでのパフォーマンスを向上させ、パラメトリックと非パラメトリックメモリを生成モデルで組み合わせる効果を示しています。
2.1.2 フィードバックと推論による自己改善
特定のプロンプトに対してLLMが出力を提供した後、適切なフィードバックは、連続する反復でLLMがより良く、より正確な出力を行うことができます(Madaan et al., 2023)。この方法に従って、以下は特定の幻覚軽減技術です:
GPT-3を信頼できるようにするプロンプト:Si et al.(2022)の論文によると、特にGPT-3は、実世界の言語タスクにおけるアプリケーションを強化する顕著な少数ショットのプロンプト能力を示しています。にもかかわらず、GPT-3の信頼性を改善する問題は未だ十分に探求されていません。この研究は信頼性を一般化、社会的バイアス、校正、事実性の4つの重要な側面に分解し、それぞれの側面を強化するための単純かつ効果的なプロンプトを導入しています。この研究は、すべての信頼性指標において小規模な監視モデルを上回り、GPT-3のパフォーマンスを改善するための実用的な戦略を提供しています。この論文は、LLMの信頼性に関する以前の作業を概説し、この研究の包括的な分析と効果的なプロンプト戦略に焦点を当てた新規性を強調しています。ML安全性調査から着想を得た信頼性フレームワークは、既存の概念的枠組みで特定されたリスクに適合しています。最後に、GPT-3の信頼性に関する体系的な探求がまとめられ、実用的なプロンプト戦略を導入し、LLMとGPT-3ユーザーに対する洞察と実践的な推奨事項への研究の貢献が強調されています。
ChatProtect:Mündler et al.(2023)は、LLMが同じ文脈で2つの論理的に矛盾する文を生成するときに発生する自己矛盾と呼ばれる重要なタイプの幻覚に焦点を当てています。彼らは、自己矛盾について推論するための3ステップのパイプラインを提案しています。重要なことに、このアプローチはプロンプト戦略に基づいて構築されており、外部の根拠に基づく知識を必要とせずにブラックボックスLLMに適用可能です。彼らはオープンドメインテキスト生成のタスクで4つの現代の指示調整LMを対象とした広範な評価を行い、このアプローチの大きな利点を示しています:自己矛盾を効果的に露呈し、正確に検出し、その発生を適切に軽減します。
セルフリフレクション手法:Ji et al.(2023b)の論文では、広く採用されているLLMとデータセットを使用する医療生成QAシステムにおける幻覚現象を探求し、対処しています。この焦点は、問題のある回答を特定し、理解することであり、特に幻覚に重点を置いています。この課題に取り組むために、論文では知識獲得と回答生成を統合するインタラクティブなセルフリフレクション手法を導入しています。この反復的なフィードバックプロセスを通じて、このアプローチは生成された回答の事実性、一貫性、及び帰結を体系的に改善します。LLMのインタラクティビティとマルチタスク能力を活用して、この方法はより正確で精度の高い回答を段階的に生成します。実験結果、自動および人間の評価は、このアプローチが基準と比較して幻覚を減少させる効果を強調しています。特に医療分野での生成タスクにおける幻覚の調査は、AIの説明責任と信頼性にとって重要です。提案された反復的自己反映方法は、バックグラウンド知識と回答に対する生成-スコア-改良戦略を使用し、幻覚を軽減する効果が実証的に証明されており、一般化可能でスケーラブルです。
Structured Comparative (SC) reasoning: テキスト嗜好予測の領域では、LLMはしばしば推論において一貫性のなさに直面します。Yan et al.(2023)は、SC推論方法を紹介します。SCは、構造化された中間比較を生成することでテキスト嗜好を予測するプロンプトアプローチを採用しています。まず、比較の側面を提案し、次に各側面の下でテキスト比較を生成します。ペアワイズ一貫性コンパレータを利用することで、SCは各側面の比較がテキスト間で明確に区別されることを保証し、幻覚を効果的に減少させ、一貫性を向上させます。この方法論は、要約、検索、自動評価など、さまざまなNLPタスクで展示され、SCがLLMに最先端のテキスト嗜好予測性能を提供することを示しています。SCの構造化された推論アプローチと一貫性の強化は、包括的な評価と除去研究を通じて検証され、多様なタスクにわたる精度と一貫性の向上におけるその効果を強調しています。人間による評価はさらに、SCの解釈能力を強調し、ユーザーが情報に基づいた意思決定を行うのを支援します。
Mind’s Mirror: 考えの連鎖(CoT)蒸留方法は、LLMを小型言語モデル(SLM)に縮小するための有望なアプローチを示していますが、不完全な推論と幻覚を継承するリスクがあります。これに対処するため、Liu et al.(2023)は、2つの重要なコンポーネントを持つ方法論を提案しました。まず、新しいアプローチは、LLMに固有の自己評価能力をSLMに蒸留することを目指し、有害な影響を軽減し、幻覚を減少させることを導入します。第二に、複数の異なるCoTと自己評価パラダイムを組み込んだ包括的な蒸留プロセスが、SLMへの全体的な知識伝達に使用されます。
この方法論は、SLMが自己評価能力を持つように訓練され、幻覚や信頼できない推論を認識し、修正し、さまざまなNLPタスクでの予測精度と信頼性を向上させます。包括的な実験は、推論タスクにおけるこの方法の優位性を示し、LLMを責任を持って縮小するための有望なアプローチを提供します。
DRESS:Chen et al.(2023)は、自然言語フィードバック(NLF)、特に批評と改善NLFを使用して、大規模ビジョン言語モデル(LVLM)の人間の嗜好と対話能力に合わせることを提案しています。彼らは、条件付き強化学習を一般化し、非微分可能なNLFを効果的に組み込むために、NLFに条件付けされた対応する応答を生成するモデルを訓練します。実験は、有用性、正直さ、および害のない調整のメトリクスで、先行する最先端のLVLMに対してDRESSの相対的な改善を示しています。
MixAlign:正確な参照点があっても、LLMはそれらを無視し、代わりに誤った参照やバイアスに依存することがあります。ユーザーが取得した参照と直接一致しない質問をする場合、保存された情報の詳細な知識がないため、幻覚を生じる傾向があります。Zhang et al.(2023b)は、この知識の整合性の問題に焦点を当て、ユーザーと知識ベースの両方と対話して、ユーザーの質問が保存された情報とどのように関連しているかを明確にするMixAlignフレームワークを紹介します。MixAlignは、自動的な知識整合性を達成するために言語モデルを使用し、必要に応じてユーザーの明確化を通じてこの整合性をさらに強化します。MixAlignは、忠実な意思決定のために根拠付けられた知識を利用することに焦点を当てています。不確かさや不明確な証拠がある場合、MixAlignはユーザーからの明確化を求める質問を生成します。これは、人間支援による知識整合性と呼ばれるプロセスです。
1. 初期の回答を作成。
2. ドラフトを事実確認するための検証質問を計画。
3. 回答が偏りがないようにそれらの質問に独立して回答。
4. 最終的に検証された回答を生成。
実験により、CoVeはリストベースのWikidataの質問や長文テキスト生成などのタスクで幻覚を減少させることが示されています。ユーザーのクエリに対して、LLMは幻覚を含む可能性のある基本的な回答を生成します。CoVeはまず、検証質問を生成し、それからそれらに答えて合意を確認します。
自然言語推論の連鎖(CoNLI):
Lei et al.(2023)は、背景コンテキストが提供されたときにLLMによって生成される幻覚の課題に取り組んでいます。自然言語生成において流暢さを示すにもかかわらず、LLMはしばしば与えられたソースによってサポートされていない根拠のない幻覚を生成します。提案された階層的フレームワークは、微調整やドメイン固有のプロンプトを必要とせずに、そのような幻覚を検出し軽減することに焦点を当てています。このフレームワークは、根拠のないコンテンツを特定することによって、最先端の幻覚検出のために自然言語推論の連鎖(CoNLI)を利用します。その後、モデルの調整なしに幻覚を減らし、テキストの品質を向上させるためにポスト編集が使用されます。テキストからテキストへのデータセットにおける広範な実験は、幻覚の検出と減少の両方での効果を示しています。検出を自然言語推論タスクの連鎖として定式化することにより、このフレームワークは解釈可能な文と実体レベルの判断を組み込んでいます。
このプラグアンドプレイフレームワークは、テキスト品質を保持しながら、幻覚の検出と軽減のパフォーマンスで競合するコンテキストにシームレスに展開できます。
2.1.3 プロンプトチューニング
プロンプトチューニングは、特定のタスクでモデルをより効果的にするために、微調整フェーズ中に事前訓練されたLLMに提供された指示を調整する技術です。LLMは「ソフトプロンプト」から学習します。これらは事前に定められたものではなく、微調整中の逆伝播を通じてモデルによって学習されるものです(Lester et al.、2021)。幻覚の軽減のために、これまでに提案されている以下の技術はプロンプトチューニングを含んでいます:
ゼロショット評価の改善のためのユニバーサルプロンプトリトリーバル(UPRISE):Cheng et al.(2023)は、与えられたゼロショットタスク入力のために自動的にプロンプトを取得する軽量で多目的なリトリーバーをチューニングするUPRISEを提案しています。特に、彼らはタスクやモデル間のクロスシナリオにおける普遍性を実証しています:リトリーバーは多様なタスクセットでチューニングされますが、未確認のタスクタイプでテストされます。リトリーバーは、複数のタスクのためのプロンプトを取得するように訓練され、推論中に未確認のタスクタイプへの一般化を可能にします。
SynTra:大規模言語モデル(LLM)は、必要な情報が存在する場合でも、要約タスクでしばしば幻覚を示します。最適化中の幻覚の複雑な評価のため、この課題に対処することは困難です。Jones et al.(2023)は、合成タスクを使用して下流の要約タスクで幻覚を効率的に減少させる方法であるSynTraを紹介しています。SynTraは、合成タスクでのプレフィックスチューニングを通じてLLMのシステムメッセージを最適化し、その後、より挑戦的で現実的な要約タスクにこの能力を転送します。実験は、2つの130億パラメータLLMで幻覚が減少したことを示し、望ましくない振る舞いを軽減するための合成データの有効性を強調しています。
3 モデルの開発
いくつかの論文は幻覚を軽減するための新しいモデルの開発に焦点を当てています。これは、アルゴリズムの進歩とデータ品質の改善の組み合わせを必要とする進行中で進化するプロセスです。微調整モデルに取り組むのではなく、以下の技術は幻覚に対処するために全モデルアーキテクチャを実装しています。これらの技術は次のように分類されます:
3.1 新しいデコード戦略の導入
デコード戦略は一般的に、モデルの生成フェーズをターゲットにした技術を設計することを含みます。幻覚の観点からは、これらの技術は、生成フェーズを本物またはコンテキスト固有の生成に向けて導くことによって、生成された出力における幻覚の発生を減らすことを目指しています(Lango and Dusek, 2023)。以下の技術はデコード戦略を利用しています:
コンテキスト認識デコード(CAD):Shi et al.(2023)は、モデルがコンテキストありとなしで使用されたときの出力確率の違いを増幅する対照的な出力分布に従うCADを紹介しています。CADは特に、提供されたコンテキストに反するモデルの事前知識を無視する場合に効果的であり、知識の衝突を解決することが不可欠なタスクで大幅な改善をもたらします。CADは、追加の訓練なしで既存の事前訓練された言語モデルで使用できます。より注目すべきは、CADは特に、コンテキストがモデルの事前知識に反する情報を含む知識衝突タスクで有益です。CADの結果は、テキスト生成における幻覚を軽減し、信頼できる信頼された情報で以前の知識を上書きする可能性を示しています。
レイヤー間のコントラストによるデコード(DoLa):
Chuang et al.(2023)は、外部知識の条件付けや追加の微調整を必要とせずに、事前訓練されたLLMでの幻覚を軽減するために設計されたシンプルなデコード戦略であるDoLaを紹介しています。DoLaは、後のレイヤーと前のレイヤー間のロジット差を語彙空間に投影することで、次のトークンの分布を達成します。これは、特定のトランスフォーマーレイヤーで事実知識の局在化を利用します。その結果、DoLaは事実知識の識別を強化し、誤った事実の生成を最小限に抑えます。TruthfulQAのような複数選択とオープンエンドの生成タスクを含むさまざまなタスクで、DoLaは一貫して真実性を向上させ、LLaMAファミリーモデルのパフォーマンスを高めます。
推論時介入(ITI):Li et al.(2023a)は、LLMの「真実性」を向上させるために設計されたITIという技術を紹介しています。ITIは、推論中に限られた数のアテンションヘッドを通じて一連の方向に沿ってモデルのアクティベーションをシフトすることによって機能します。この介入は、TruthfulQAベンチマークでLLaMAモデルのパフォーマンスを大幅に向上させます。この技術はまず、真実性に対する高い線形プロービング精度を持つスパースなアテンションヘッドセットを特定します。次に、推論中にこれらの真実関連の方向に沿ってアクティベーションをシフトします。全回答が生成されるまで同じ介入を自己回帰的に繰り返します。ITIはTruthfulQAベンチマークでの顕著なパフォーマンス向上をもたらします。
3.2 知識グラフ(KG)の利用
ナレッジグラフは、エンティティ(人、場所、物)の詳細、その特徴、およびそれらの間の接続を含むデータの整理されたコレクションです(Sun et al.、2023a)。KGは、マシンが関係とセマンティックな意味を理解できるようにデータを整理します。KGは、高度な推論、データ分析、情報検索の基盤を提供します。したがって、いくつかの研究は幻覚軽減の文脈でKGを使用しています(Bayat et al.、2023)。それらは以下の通りです: RHO:対話応答生成における幻覚の課題を処理するために、Ji et al.(2023a)は、KGからリンクされたエンティティと関係述語の表現を利用して、より忠実な応答を生成するRHOというフレームワークを提案します。忠実さを向上させるために、彼らは対話生成にローカルおよびグローバルの知識グラウンディング技術を導入し、さらに会話推論モデルを使用して生成された応答を再ランク付けします。これら二つの知識グラウンディングは、モデルが関連するサブグラフからの知識情報を適切な注意を払って効果的にエンコードし注入するのに役立ちます。彼らの研究は、さまざまな知識グラウンディングと推論技術を通じて外部知識と対話コンテキスト間の融合と相互作用を改善し、さらに幻覚を減少させます。
FLEEK:Bayat et al.(2023)は、人間の採点者などのエンドユーザーが事実の検証と修正を支援するためのインテリジェントでモデル非依存のツールであるFLEEKを紹介しています。FLEEKは、入力テキスト内の潜在的に検証可能な事実を自動的に識別できるユーザーフレンドリーなインターフェースを備えています。それは各事実に対して質問を定式化し、キュレートされた知識グラフとオープンウェブの両方をクエリして証拠を収集します。その後、取得した証拠を使用して事実の正確性を検証し、元のテキストへの改訂を提案します。検証プロセスは本質的に解釈可能であり、抽出された事実、生成された質問、および取得された証拠は、検証プロセスに寄与する情報ユニットを直接反映しています。たとえば、FLEEKは検証可能な事実を事実性レベルを示す異なる色で視覚的に強調し、各主張を支持または反駁する証拠を明らかにするクリック可能なハイライトとの対話をユーザーに可能にします。今後の作業には、FLEEKの包括的な評価、さまざまなLLMとの互換性のテスト、および包括的なベンチマークへの対象が含まれます。
3.3 忠実性に基づく損失関数の導入
モデルの出力が入力データまたは基礎となる真実とどの程度一致しているかを測定する指標を作成するのがこのセクションのタスクです。この意味で、忠実性は、モデルがエラーや省略、歪みを追加せずに入力からのデータを忠実かつ適切に反映する能力を記述します(Chrysostomou and Aletras、2021)。以下の方法は技術の使用を描写しています:
テキスト幻覚軽減(THAM)フレームワーク:Yoon et al.(2022)はビデオグラウンド対話のためのTHAMフレームワークを紹介しています。THAMは、質問の理解なしに回答生成のために入力テキストをコピーするテキスト幻覚問題を考慮しています。情報理論的正規化を導入することにより、機能レベルの幻覚効果を軽減します。THAMフレームワークは、応答言語モデルと提案された幻覚言語モデル間の相互情報から派生したテキスト幻覚正規化(THR)損失を組み込んでいます。THR損失の最小化は、無差別なテキストのコピーを減少させ、対話のパフォーマンスを向上させるのに寄与します。THAMフレームワークは、提案された情報理論的テキスト幻覚測定アプローチから派生したテキスト幻覚正規化損失を組み込んでいます。
損失重み付け方法:Qiu et al.(2023b)は、低リソース言語の要約に焦点を当て、非英語要約の忠実性を評価するための新しい指標であるmFACTを開発し、複数の英語忠実性指標からの翻訳ベースの転送を活用しています。それは4つの英語忠実性指標から開発されました。彼らは、クロスリンガル転送設定における幻覚を研究しています。彼らはmFACTを適用して、最近の多言語LLMにおける要約の忠実性を研究しています。提案された指標は、トレーニングサンプルの損失をそれらの忠実性スコアに基づいて重み付けすることで構成されています。実験により、一般的なクロスリンガル転送方法が要約パフォーマンスを向上させる一方で、単言語の対応物と比較して幻覚を増幅させることが示されています。これらの幻覚を減少させるために、彼らはいくつかの単言語方法をクロスリンガル転送に適応させ、各トレーニング例のmFACTスコアに基づいて損失を重み付けする新しい方法を提案しています。
3.4 教師付き微調整(SFT)
SFTは、ラベル付きデータを使用してLLMを下流タスクに合わせるための重要なフェーズとして機能します。それは、特定のタスクに対する人間のコマンドに従うようにモデルを支援し(Wang et al.、2023; Chung et al.、2022; Iyer et al.、2023; Sun et al.、2023b)、最終的にモデルの出力の忠実性を高めます。SFTの文脈では、データの品質が最も重要な懸念事項として立っており、それは直接的に
微調整されたモデルのパフォーマンスを決定します(Xu et al.、2023; Touvron et al.、2023)。教師付き微調整中には、LLMの重みが、LLMの予測と基礎となる真実ラベルの違いを測定するタスク固有の損失関数からの勾配に基づいて調整されます。この技術は、LLMを以前に見たことのないタスクで優れたものにするために特に効果的であることが証明されています。
知識注入と教師-学生アプローチ:Elaraby et al.(2023)は、BLOOM 7B(Workshop et al.、2022)などの弱いオープンソースの大規模言語モデル(LLM)での幻覚の測定と軽減に焦点を当てています。彼らは、LLMにおける幻覚の重大さを定量化するための軽量で知識フリーのフレームワークであるHALOCHECKを紹介しています。著者らは、低パラメータLLMでの幻覚を軽減するために、知識注入と教師-学生アプローチのような技術を探求しています。このフレームワークは、文レベルの推論を使用して幻覚レベルを定量的に評価します。
この研究の目的は、より強力なモデルからの高価な指示に頼ることなく、ドメイン知識で微調整することによって小型LLMの知識を高める知識注入(KI)を通じて小型LLMの知識を強化することです。彼らは、より強力なLLM(例えばGPT-4)を使用して、詳細な質問回答を生成することによって、弱いLLMを導くことを検討しています。幻覚の重大さを評価することによって、大型モデルに広範に依存する計算コストを削減するために教師LLMの関与を最適化します。これにより、教師モデルへの頻繁なクエリの必要性が軽減されます。幻覚拡張朗読(HAR):Köksal et al.(2023)は、LLMにおける帰属の概念を導入し、情報源を制御し、事実性を向上させることを目指します。既存の方法はオープンブック形式の質問応答を利用して帰属を改善していますが、事実に基づくデータセットが訓練中のデータを思い出すことに対してモデルを報酬するときに課題が生じます。これに対処するため、著者らはLLMの幻覚を利用して反事実データセットを作成し、帰属を向上させる新しいアプローチであるHARを提案しています。CF-TriviaQAに関するケーススタディを通して、これらの反事実データセットで微調整されたモデルがテキストの根拠を著しく向上させ、事実に基づくデータセットで訓練されたモデルよりも優れたパフォーマンスを示すことが示されています。これらの改善は、マルチホップ、生物医学、敵対的な質問を含む様々なオープンブックQAタスクにおいて一貫して観察されます。
事実性のための言語モデルの微調整:Tian et al.(2023)は、最近のNLPイノベーションを活用し、自動ファクトチェック方法とDirect Preference Optimizationアルゴリズムを通じた嗜好ベースの学習を用いて幻覚に対処しています。研究者たちは人間のラベル付けなしで事実性のためにLlama-2モデルを微調整し、特に伝記や医療の質問において顕著なエラーの削減を達成しています。彼らのアプローチには、参照ベースおよび参照フリーの真実性評価が含まれ、長文テキスト生成におけるモデルの事実性をコスト効果的に向上させる方法を示しています。この研究は新しいベンチマークタスクを提案し、将来の道筋を議論し、安全性が重要な領域での大型モデルにおける事実上の強化学習の潜在的なスケーラビリティを強調しています。
BEINFO:情報探索型対話システムの問題を軽減し、情報の忠実性を高めるために、Razumovskaia et al.(2023)はBEINFOという、情報探索型対話を支援するためのシンプルで効果的な方法を導入します。この研究では、情報探索型対話のために生成された応答の忠実性を高めるために「行動微調整」を適用するBEINFOというシンプルで効果的な方法を提案しています。このモデルは、真の知識源を持つ大規模な対話コレクションで微調整され、大規模な知識ベースからランダムにサンプリングされた事実が拡張されています。
拒否認識型指示チューニング(R-Tuning):
最近の研究で、Zhang et al.(2023a)は、大規模言語モデル(LLM)に拒否スキルを植え付けるための新しいアプローチであるR-Tuningを提案しています。このアプローチは、LLMのパラメトリック知識とそれを訓練するために使用される指示チューニングデータの間の知識ギャップを特定する考え方を定式化します。この知識ギャップに基づいて、R-Tuningは質問がその能力の範囲外である場合、特にLLMが応答を控えるべき時を教えるために拒否認識型トレーニングデータを構築します。R-Tuningの方法論には、2つの重要なステップが含まれています:
1. LLMのパラメトリック知識と指示チューニングの質問の間の知識ギャップを測定して、不確実な質問を特定します。トレーニングデータに一度推論を行い、予測をラベルと比較することで、チューニングデータを不確実な質問と確実な質問に分けます。
2. 不確実なトレーニング例に拒否表現を追加してから、このデータでLLMを微調整することによって、拒否認識型トレーニングデータを構築します。
TWEAK:Qiu et al.(2023a)は、幻覚を減少させるためにTWEAKという新しいデコード方法を提案しています。この方法は、各ステップで生成されたシーケンスとそれらの将来のシーケンスを仮説として扱い、入力事実をどの程度支持しているかに基づいて各生成候補をランク付けします。これには仮説検証モデル(HVM)が使用されます。
著者らは生成モデルの再トレーニングなしにデコードプロセスのみを調整します。これにより、知識からテキストへのジェネレーターと容易に統合できます。既存のデコード方法(例えばビームサーチ)は予測される可能性に基づいてのみ候補をサンプリングし、忠実性を考慮しません。著者らは、入力事実と元のおよび反事実の説明を単語レベルで整合させる新しいデータセットであるFATEを提案しています。
4 結論
この調査論文は、LLMにおける幻覚の重要な問題に取り組み、私たちの生活のさまざまな分野でLLMの影響が広範に及んでいることを強調しています。論文は、LLMが誤った情報を生成するという課題を浮き彫りにし、GPT-4のような著名なLLMで研究する研究者にとって重要な懸念事項であると特定しています。論文は、mFACT、文脈情報に基づくフレームワーク、自己矛盾の調査などの方法を用いて、LLMにおける幻覚の検出の最近の進展を探求しています。これは、重要なタスクにおけるLLMの不可欠な役割により、LLMにおける幻覚に対処することの重要性を強調しています。この論文の中心的な貢献は、LLMの幻覚軽減技術を分類するための体系的な分類法を提示し、その範囲をVLMまで拡大することにあります。これらの技術を特徴づける本質的な特徴を統合することにより、論文は幻覚軽減の分野におけるより構造化された将来の研究のための基盤を提供します。さらに、論文はこれらの技術に固有の限界と課題について議論し、この分野での将来の研究の方向性を提案しています。
本質的に、この調査論文は、LLMにおける幻覚の重要性に光を当てるだけでなく、様々な軽減技術を集約し、整理し、計算言語学の分野における知識の進歩に貢献しています。これは、LLMにおける幻覚の現状とこの重要な問題に対処するために採用されている戦略を包括的に理解することを求める研究者や実践者にとって貴重なリソースとして機能します。
5 議論と限界
LLMにおける幻覚の軽減は、革新的な技術のスペクトルを通じて対処される多面的な課題を表しています。後生成の洗練から教師付き微調整までの範囲にわたる方法論は、幻覚の問題の重大さと包括的な解決策の緊急性を強調しています。
後生成の洗練の領域では、RARRが、自動的な帰属プロセスを強化し、取得した証拠との内容の整合を実現する点で際立っています。高エントロピー単語の発見と置換は、LLM生成コンテンツに誘発される幻覚に取り組み、文脈認識の置換の重要性を示しています。
フィードバックと推論を通じた自己改善は、自己矛盾の検出に焦点を当てたChatProtectや、医療生成QAシステムでの幻覚の削減のための反復的なフィードバックプロセスを利用する自己反省方法論など、影響力のある戦略を提供します。構造的比較推論は、テキスト嗜好予測に構造的なアプローチを導入し、一貫性を向上させ、幻覚を減少させます。